iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 22
1
Google Developers Machine Learning

初心者的GDC攻略系列 第 22

Day22: 預處理 x 建特徵 x 緩結論

  • 分享至 

  • xImage
  •  

想用TensorFlow有打包好的estimator,預處理呢?

在大數據的預處理上,Google於2003-2006以驚世駭俗之姿,推出了

  1. GFS
  2. Mapreduce
  3. BigTable
    三大利器,指引社群數據分析方向。

然而,有鑑於Apache基金會成功以Hadoop活絡社群的力量,Google意識到自己可以做出更多更大的影響。
Apache Beam計畫就此誕生了,目前官網上提供Java、Python及Go對應的支援。

那麼,Beam的出現,對於原本的三大利器使用上有什麼變化呢?
GFS屬於檔案系統架構,並不會由Beam直接影響;BigTable管理著類似資料庫的檔案表格結構,需要有SQL快速取用的工具(以GCP來說就是用BigQuery來操作,而BigQuery支援標準的SQL語法)。
由此可見,Beam想提供升級的部分,正是原來分散處理架構的Mapreduce。

該如何分工

這裡引用一下課程:
https://ithelp.ithome.com.tw/upload/images/20191008/201201519uLapZO4UG.png
https://ithelp.ithome.com.tw/upload/images/20191008/20120151JXJ6MJOFvL.png
我們可以發現,如果想要的話,Beam幾乎可以幫忙做完全部的預處理。
這裡要提醒,其實這不代表用了Beam就不用寫任何附屬的程式,而是把其他程式的部分模組化成input_functionserving_function

Beam提供了強大的流程控制,而控制單元內部則可繼續使用完成對應功能的程式碼。


上一篇
Day21: 數字 x 編碼 x 解讀
下一篇
Day23: Feature Crosses
系列文
初心者的GDC攻略30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言